學了推薦演算法,沒有數據也枉然。除了自己爬資料外,今天介紹 3 個做影片推薦時可以用的 dataset。
https://grouplens.org/datasets/movielens/
這是電影推薦研究時常使用 movielens上 的 dataset。MoveieLens 可以說是是推薦系统領域裡最經典的資料集,它的地位就像是 MNIST,是學推薦時必玩的 dataset 。
它陸續推出不同的版本,在2003年2月時,有推出 1M 的版本 (https://grouplens.org/datasets/movielens/1m/)。
另外還有10M(2009年1月)、20M(2015年4月)。目前最新的是 2019年12月份的 25M dataset。
但 20M 的版本還有一個有趣的地方,他有對映的 Youtube 電影預告的dataset (https://grouplens.org/datasets/movielens/20m-youtube/)
https://www.kaggle.com/tmdb/tmdb-movie-metadata
這是在 kaggle 裡的dataset。這個題目是:如果你是電影行業的數據分析師,那有沒有辦法以電影公司的角度來思考,可以從數據裡找出哪些資訊呢? 例如:
為了能回答這些問題, TMDB 的dataset裡除了基本的電影資料外,還包含了演員、工作人員、預算、收益等等資料。
這個dataset,很多的欄位都是存入 JSON 格式,要用之前要先整理才行。
https://www.kaggle.com/datasets/CooperUnion/anime-recommendations-database
這是動畫 dataset,資料來自 myanimelist.net ,它蒐集了73,516使用者對12,294 部動畫的投票。
它的 dataset 裡只有 Anime.csv 和 Rating.csv 2 個檔案。Anime.csv 主要是放動畫的資料,如名稱、分類等等。Rating.csv 就單純記錄誰對哪部動畫評幾分(1分到10分)。算是一個小巧簡單的 dataset ,拿來做協作過濾、矩陣分解等等都可以用。
以上就是今天要介紹的3 個影片dataset。每個dataset內容不太一樣,所以可以測試的推薦演算法也不太一樣。以上供大家在學習推薦系統時,有資料可以用。